Ogólne informacje o danych

## 'data.frame':    8557694 obs. of  8 variables:
##  $ Kraj   : Factor w/ 83 levels "Albania","United Arab Emirates",..: 4 4 4 4 4 4 4 4 4 4 ...
##  $ Szkola : num  3600001 3600001 3600001 3600002 3600003 ...
##  $ Student: num  3601769 3605983 3602143 3611016 3605314 ...
##  $ Zestaw : chr  "31" "85" "36" "37" ...
##  $ Czas   : num  195552 143354 206815 117352 174955 ...
##  $ Zadanie: chr  "R219Q01" "R219Q01" "R219Q01" "R219Q01" ...
##  $ Pozycja: num  3 2 4 1 4 2 4 1 2 3 ...
##  $ Obszar : chr  "R" "R" "R" "R" ...
## [1] "Kraj"    "Szkola"  "Student" "Zestaw"  "Czas"    "Zadanie" "Pozycja"
## [8] "Obszar"


Mamy do dyspozcji 8.5 mln obserwacji opisanych przez 8 wypisanych wyżej wartości.Dane zawierają informacje opisujące czas wykonywania zadań przez uczniów z 58 krajów.

## Ogólne informacje:
##  63   Liczba różnych zestawów
##  182   Liczba zadań
##  58   Liczba krajów
##  355733   Liczba studentów
##  15279   Liczba szkół

Porządkowanie danych

summary((data$Czas)/1000/60)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##   0.0024   0.5973   1.1170   1.4510   1.8980 734.0000

Gdy wyrazimy czas w minutach widać, że na niektóre z zadań przeznaczono dużo więcej niż regulaminowe 2-godziny niezbędne na wykonanie testu (Max>120). Musimy pozbyć się takich danych.

## [1] 227


Ponad 227 z ok.356 tys. uczniów przeznaczyło więcej niż 2 godziny na wykonywanie testu zgodnie z przedstawionymi danymi. Ze względu na dużą ilość danych pozbędziemy się “nieprzepisowych”. Usuwamy również obserwacje, dla których Pozycja przyjmuje wartość -1, gdyż świadczy to o błędnym wprowadzeniu danych. Upewniliśmy się również czy w zbiorze obserwacji nie występują luki w danych - tzn. “NA, gdyż konieczne byłoby ich zastąpienie.
Korzystając z funkcji boxplot.stats udało nam się zlokalizować ok 400 tys. obserwacji odstających. Dane bez odstających obserwacji oznaczamy przez data2. Uwzględnimy je w dalszej analizie , jednak nie chcemy ich na razie usuwać gdyż mogą być istotne przy porównywaniu krajów.

Porównanie obszaróW


Jak widzimy na wykresie poniżej zadania z części matematycznej i czytania są wykazane w podobnej wielkości obserwacji.


Zadanie z matematyki:

summary((dataM$Czas)/60000)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.00263  0.77740  1.28700  1.62800  2.06800 84.69000


Zadanie z czytania:

summary((dataR$Czas)/60000)
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.00245  0.47990  0.95340  1.29900  1.73800 85.47000


Powyżej prezentujemy podstawowe statystyki czasu przeznaczonego na zadanie w każdym z obszarów.
Dodatkowo porównajmy histogramy czasów rozwiązywania zadania z matematyki oraz czytania, które prezentujemy poniżej.
Gdy porównamy histogramy czasów wykonywania zadań z obu obszaróW, widzimy, że zadania z matematyki były rozwiązywane dłużej.

Porównanie części testów (opisanych przez zmienną Pozycja)


Jak widzimy na wykresie poniżej zadania z wszystkich części tetsu są wykazane w podobnej wielkości obserwacji.


Podstawowe statystyki czasu wykonywania zadań w każdej części testu:

## [1] "Pozycja 1:"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.00305  0.72250  1.32800  1.71800  2.24800 85.47000
## [1] "Pozycja 2:"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.00245  0.58430  1.08600  1.37400  1.81100 84.69000
## [1] "Pozycja 3:"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.00263  0.60100  1.10600  1.43400  1.87600 79.84000
## [1] "Pozycja 4:"
##     Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
##  0.00285  0.50760  0.97380  1.26200  1.66100 72.94000


Rozkład łącznego czasu przeznaczonego na każdą z części pokazują poniższe boxploty.


Boxploty przedstawiają rozkład czasu przeznaczonego na każdą z części testu (wyrażony w minutach). Pierwsza część testu wykonywana jest najdłużej , natomiast najkrócej studenci rozwiązują zadania z częsci czwartej.

Porównanie krajów


Badane kraje prezentują się w następujących częsciach obserwacji:


Jak widzimy liczba obserwacji przypadających na każdy z krajów jest podobna.
Poniżej prezentujemy średnie czasy rozwiązywania zadań z czytania i matematyki dla każdego z krajów.

Wykres przedstawiony wyżej prezentuje średni czas poświęcony na zadanie z części matematycznej oraz czytania w każdym z badanych krajów. Najszybciej zadania z obu częci wykonywane są przez studentów z Korei natomiast najdłuższy średni czas poświęcony na zadania jest w Peru.


Następny wykres pokazuje średnie czasy wykonywania zadań w każdej z kolejnych części testów w rozróżnieniu na kraje.